目前最先进的基于模型的强化学习算法使用轨迹采样方法,例如跨熵方法(CEM),用于在连续控制设置中规划。这些零顺序优化器需要采样大量的轨迹卷展栏以选择最佳动作,这对于大的预测视野或高维行动空间缩放。使用奖励的渐变与更新的操作使用奖励的一阶方法可以减轻此问题,但由于非凸优化景观导致的本地Optima遭受。为了克服这些问题并实现两全其美的问题,我们提出了一种新颖的计划者,具有梯度下降(CEM-GD)的跨熵方法,其将一阶方法与CEM结合起来。在执行开始时,CEM-GD使用CEM来采样大量的轨迹卷展览,以探索优化景观并避免较差的局部最小值。然后,它使用顶部轨迹作为梯度下降的初始化,并将梯度更新应用于这些轨迹中的每一个以找到最佳动作序列。然而,在每个后续时间步骤中,CEM-GD在应用梯度更新之前从CEM采样得多的轨迹得多。我们表明,随着规划问题的维度增加,CEM-GD通过使用梯度信息,通过恒定的少量样本保持所需的性能,同时使用最初采样纯净的轨迹来避免本地最佳局部。此外,CEM-GD比Mujoco中的各种连续控制基准测试更好的性能,每次步骤较少的样本,计算时间较少约25%,内存使用量减少10%。 CEM-GD的实现可在$ \ href {https:/github.com/kevinhuang8/cem-gd} {\ text {https://github.com/kevinhuang8/cem-gd}} $。
translated by 谷歌翻译